在图像中检测人对象相互作用(HOI)是迈向高级视觉理解的重要一步。现有工作通常会阐明改善人类和对象检测或互动识别。但是,由于数据集的局限性,这些方法倾向于在检测到的对象的频繁相互作用上非常适合,但在很大程度上忽略了稀有的对象,这被称为本文中的对象偏置问题。在这项工作中,我们第一次从两个方面揭示了问题:不平衡的交互分布和偏见的模型学习。为了克服对象偏置问题,我们提出了一种新颖的插件插件,以对象的偏差记忆(ODM)方法来重新平衡检测到的对象下的交互分布。拟议的ODM配备了精心设计的读写策略,可以更频繁地对训练进行稀有的互动实例,从而减轻不平衡交互分布引起的对象偏差。我们将此方法应用于三个高级基线,并在HICO-DET和HOI-COCO数据集上进行实验。为了定量研究对象偏置问题,我们主张一项新协议来评估模型性能。正如实验结果所证明的那样,我们的方法对基准的一致和显着改善,尤其是在每个物体下方的罕见相互作用上。此外,在评估常规标准设置时,我们的方法在两个基准测试中实现了新的最新方法。
translated by 谷歌翻译
人类对象的相互作用(HOI)检测在场景理解的背景下受到了很大的关注。尽管基准上的进步越来越高,但我们意识到现有方法通常在遥远的相互作用上表现不佳,其中主要原因是两个方面:1)遥远的相互作用本质上比亲密的相互作用更难以识别。一个自然的场景通常涉及多个人类和具有复杂空间关系的物体,从而使远距离人对象的互动识别很大程度上受到复杂的视觉背景的影响。 2)基准数据集中的远处相互作用不足导致这些实例的合适。为了解决这些问题,在本文中,我们提出了一种新型的两阶段方法,用于更好地处理HOI检测中的遥远相互作用。我们方法中的一个必不可少的组成部分是一个新颖的近距离注意模块。它可以在人类和物体之间进行信息传播,从而熟练考虑空间距离。此外,我们设计了一种新颖的远距离感知损失函数,该功能使模型更加专注于遥远而罕见的相互作用。我们对两个具有挑战性的数据集进行了广泛的实验-HICO-DET和V-COCO。结果表明,所提出的方法可以通过很大的利润来超越现有方法,从而导致新的最新性能。
translated by 谷歌翻译
基于知识的视觉问题答案(VQA)希望模型依靠外部知识来进行强大的答案预测。尽管这很重要,但本文发现了阻碍当前最新方法发展的几个主要因素。一方面,利用显式知识的方法将知识视为经过精心训练的VQA模型的补充。尽管它们有效,但这些方法通常会遭受噪声纳入和错误传播的影响。另一方面,与隐式知识有关的是,基于知识的VQA的多模式隐式知识仍然在很大程度上尚未探索。这项工作为基于知识的VQA提供了统一的端到端检索器框架。特别是,我们阐明了从视觉语言预训练模型中的多模式隐式知识,以挖掘其在知识推理中的潜力。至于检索操作在显式知识上遇到的噪音问题,我们设计了一种新的方案,以创建伪标签以进行有效的知识监督。该方案不仅能够为知识检索提供指导,而且还可以将这些实例带入问题回答的可能性。为了验证所提出的方法的有效性,我们在基准数据集上进行了广泛的实验。实验结果表明,我们的方法以明显的边距优于现有基线。除了报道的数字外,本文还通过一些经验发现,进一步催生了对未来研究的知识利用的一些见解。
translated by 谷歌翻译
使多模式数据中的每种模式贡献贡献至关重要,对于学习多功能多模式模型至关重要。但是,现有的方法通常在模型训练过程中由一种或几种模式主导,从而导致次优性能。在本文中,我们将此问题称为模态偏见,并试图在多模式分类的背景下进行系统,全面地进行研究。在进行了几个经验分析之后,我们认识到一种模式会影响模型预测,因为这种模式与实例标签具有虚假的相关性。为了主要促进对模式偏差问题的评估,我们分别构建了两个数据集,以根据分布式(OOD)协议一致的彩色数字识别和视频动作识别任务。在视觉问题回答任务中与基准合作,我们经验证明了这些OOD数据集中现有方法的性能退化是合理的,这是证明模式偏见学习合理的证据。此外,为了克服这个问题,我们提出了一种插件损失功能方法,从而根据训练集统计数据可以自适应地学习每个标签的特征空间。此后,我们将此方法应用于八个基准,以测试其有效性。从四个数据集的结果有关上述三个任务的结果,我们的方法与基准相比产生了显着的性能改进,这表明其在减少模态偏差问题上的优势。
translated by 谷歌翻译
非参数两样本测试(TST)判断是否从同一分布中得出两组样本,已广泛用于关键数据的分析中。人们倾向于使用TST作为可信赖的基本工具,并且很少对其可靠性有任何疑问。本文系统地通过对抗攻击系统地揭示了非参数TST的故障模式,然后提出了相应的防御策略。首先,我们从理论上表明,对手可以在分配变化上限制,从而保证了攻击的隐形性。此外,我们从理论上发现,对手也可以降低TST测试能力的下限,这使我们能够迭代地最小化测试标准,以便搜索对抗对。为了启用TST不足的攻击,我们提出了一个合奏攻击(EA)框架,共同将不同类型的测试标准最小化。其次,为了鲁棒性TST,我们提出了一种最大值优化,它可以迭代地生成对抗对来训练深核。对模拟和现实世界数据集进行的广泛实验验证了非参数TST的对抗脆弱性以及我们提出的防御的有效性。源代码可从https://github.com/godxuxilie/robust-tst.git获得。
translated by 谷歌翻译
现代隐私法规授予公民被产品,服务和公司遗忘的权利。在机器学习(ML)应用程序的情况下,这不仅需要从存储档案中删除数据,而且还需要从ML模型中删除数据。由于对ML应用所需的监管依从性的需求越来越大,因此机器上的学习已成为一个新兴的研究问题。被遗忘的请求的权利是从已训练的ML模型中删除特定集或一类数据的形式的形式。实际考虑因素排除了模型的重新划分,从而减去已删除的数据。现有的少数研究使用了整个培训数据,或一部分培训数据,或者在培训期间存储的一些元数据以更新模型权重进行学习。但是,严格的监管合规性需要时间限制数据。因此,在许多情况下,即使是出于学习目的,也无法访问与培训过程或培训样本有关的数据。因此,我们提出一个问题:是否有可能使用零培训样本实现学习?在本文中,我们介绍了零击机的新问题,即适合极端但实用的方案,在该场景中,零原始数据样本可供使用。然后,我们根据(a)误差最小化最大化噪声和(b)门控知识传递的误差,提出了两种新的解决方案,以零发出的计算机学习。这些方法在保持保留数据上的模型疗效的同时,从模型中删除了忘记数据的信息。零射击方法可以很好地保护模型反转攻击和成员推理攻击。我们引入了新的评估度量,解散指数(AIN),以有效地测量未学习方法的质量。实验显示了在基准视觉数据集中深度学习模型中学习的有希望的结果。
translated by 谷歌翻译
摈弃机器学习(ML)模型的训练过程中观察到的数据是可以强化的基于ML-应用程序的隐私和安全方面发挥了举足轻重的作用的一项重要任务。本文提出了以下问题:(一),我们可以忘掉从ML模型数据的类/类,而在完整的训练数据看哪怕一次? (二)我们可以忘却快速和可扩展到大型数据集的过程,它推广到不同的深网络?我们引入错误最大化噪音的产生,损害修复基于重量操纵新机器忘却的框架,提供了一个有效的解决方案对上述问题。错误最大化的噪声矩阵学习了使用原始模型的不精通类。噪声矩阵用于操纵模型的权重忘却目标类的数据。我们引入了网络权的控制操作IMPAIR和修复步骤。在步骤IMPAIR,具有非常高的学习速率沿所述噪声矩阵被用于诱导尖锐忘却在模型中。此后,将修步骤用于重新获得的整体性能。除了极少数的更新步骤中,我们表现出优异的忘却,同时基本上保留了整个模型的准确性。摈弃多个类需要作为单独的类类似的更新的步数,使得我们的方法扩展到大的问题。我们的方法是相比于现有的方法非常有效,适用于多类忘却,不把任何约束的原始优化机制或网络设计,以及小型和大型视觉任务效果很好。这项工作是实现快速和容易实现在深网络忘却的重要一步。我们将源代码公开。
translated by 谷歌翻译
错误或错误的标签可以对监督学习的可靠概括构成障碍。这可能具有负面后果,特别是对于诸如医疗保健的关键领域。我们提出了一种在极端标签噪声下学习的有效新方法,基于培训的深度乐观。每个集合构件都接受了培训数据的子集培训,以获取决策边界分离的一般概述,而不关注可能错误的细节。合并的累积知识组合以形成新的标签,确定比原始标签更好的类别分离。尽管标签噪声,但是使用这些标签培训了一个新模型,以可靠地概括。我们专注于医疗保健环境,并广泛评估我们对睡眠呼吸暂停检测任务的方法。为了与相关工作进行比较,我们还评估了数字识别的任务。在我们的实验中,我们观察到数字分类的任务和kappa的任务从6.7 \%的准确性提高到49.3 \%。
translated by 谷歌翻译
良好的培训数据是开发有用的ML应用程序的先决条件。但是,在许多域中,现有数据集不能由于隐私法规(例如,从医学研究)而被共享。这项工作调查了一种简单而非规范的方法,可以匿名数据综合来使第三方能够受益于此类私人数据。我们探讨了从不切实际,任务相关的刺激中隐含地学习的可行性,这通过激发训练有素的深神经网络(DNN)的神经元来合成。因此,神经元励磁用作伪生成模型。刺激数据用于培训新的分类模型。此外,我们将此框架扩展以抑制与特定个人相关的表示。我们使用开放和大型闭合临床研究的睡眠监测数据,并评估(1)最终用户是否可以创建和成功使用定制分类模型进行睡眠呼吸暂停检测,并且(2)研究中参与者的身份受到保护。广泛的比较实证研究表明,在刺激上培训的不同算法能够在与原始模型相同的任务上成功概括。然而,新和原始模型之间的架构和算法相似性在性能方面发挥着重要作用。对于类似的架构,性能接近使用真实数据(例如,精度差为0.56 \%,Kappa系数差为0.03-0.04)。进一步的实验表明,刺激可以在很大程度上成功地匿名匿名研究临床研究的参与者。
translated by 谷歌翻译
Adversarial training based on the minimax formulation is necessary for obtaining adversarial robustness of trained models. However, it is conservative or even pessimistic so that it sometimes hurts the natural generalization. In this paper, we raise a fundamental question-do we have to trade off natural generalization for adversarial robustness? We argue that adversarial training is to employ confident adversarial data for updating the current model. We propose a novel formulation of friendly adversarial training (FAT): rather than employing most adversarial data maximizing the loss, we search for least adversarial data (i.e., friendly adversarial data) minimizing the loss, among the adversarial data that are confidently misclassified. Our novel formulation is easy to implement by just stopping the most adversarial data searching algorithms such as PGD (projected gradient descent) early, which we call early-stopped PGD. Theoretically, FAT is justified by an upper bound of the adversarial risk. Empirically, early-stopped PGD allows us to answer the earlier question negatively-adversarial robustness can indeed be achieved without compromising the natural generalization.* Equal contribution † Preliminary work was done during an internship at RIKEN AIP.
translated by 谷歌翻译